V této seminární práci budeme využívat prostorové modely pro modelování a predikovaní cen na trhu pražských nemovistostí. V návaznasti na \(\textit{Toblerovo první pravidlo geografie o podobnosti sousedicích jednotek}\) nejdříve ověřujeme prostorovou závislost v cenách přažských bytů. Následně aplikujeme neprostorové a prostorové modely k oveření stavených hypotéz.
Ukazuje se, že využití prostorových modelů dokáže zlepšít přesnost predikce cen nemovitostí. Dále také s využitím neprostorových modelů identifikováváme \(\textit{„honosné“}\) clusteri, tj. lokace ve kterých může být cena nemovistí více než dvojnásobné čistě z důvodů umístění.
Formálně oveřujeme následující stanovené hypotézi:
\[H_{1}: \textit{Z důvodu prostorové autokorelace disponují prostorové modely lepší predikční schopnosti.}\]
\[H_{2}: \textit{Historické centrum prahy představuje hlavní „honosný“ cluster.}\]
\[H_{3}: \textit{Novostavba výrazně zvýší cenu}\]
Celý dataset v této studii byl získán z internetové stránky: https://www.sreality.cz/. Z důvodů přesnosti analýzy a možné \(\textit{statistické inference}\) je ale nezbytné stanovit si následující předpoklady a nemovitostech inzerovaných na zmíněné stránce:
\[1) \textit{ Stránka sreality.cz představuje reprezentativní soubor všech pražských bytů.}\] \[2) \textit{ Veškeré charakteristiky (cena, poč. pokojů, atd.) jsou v každém inzerátu přesné a ve stejných jednotkách. }\]
Celkový dataset byl získán z internetových stránek technikou \(\textit{web scraping}\) s využitím programovacího jazyku python. Po extrakci dat z internetové stránky v den 10. března 2020 bylo získáno zhruba \(\textbf{4012}\) nemovistostí, kde každé pozorování obsahovalo více než 80 \(\textit{proměných}\).
Takto získaný dataset byl následně vyfiltrován a tranformován. Byly odstraněné promměné, které nepovažujeme pro naši analyzů za vhodné. Sem patří např. proměnné typu: \(\textit{identifiční klíče a čísla v databázi, cluster databáze, primární klíče atd.}\).
Naopak proměnné, které jsou pro naší analýzu nezbytné jako: \(\textit{Cena, počet pokojů, metry, typ budovy, souřadnice, atd.}\) byly v datasetu ponechány. Celkový dataset tedy obsahuje následující proměnné:
\[\textit{Cena, Metry čtverečný, Počet pokojů, Mezon, kuchyňský kout, Panel, Balkón/Terasa, Novostavba}\]. A z důvodů prostorových data také \(\textit{Souřadnice}\).
Nakonec bylo nezbytné odstranit všechna pozorování, která obsahovala chybějící záznam v jakékoliv proměnné. Celkový finální dataset tedy obsahuje \(\textbf{2984}\) pozorování.
| price | Meters | Rooms | Mezone | KK | panel | balcony_or_terrase | novostavba |
|---|---|---|---|---|---|---|---|
| 9840000 | 93 | 3 | 0 | 1 | 0 | 1 | 0 |
| 3980000 | 55 | 3 | 0 | 0 | 1 | 1 | 0 |
| 5958150 | 59 | 2 | 0 | 1 | 0 | 0 | 1 |
| 4657156 | 76 | 1 | 0 | 1 | 0 | 0 | 1 |
| 5466765 | 64 | 2 | 0 | 1 | 0 | 1 | 1 |
| 5466765 | 64 | 2 | 0 | 1 | 0 | 1 | 1 |
| price | Meters | Rooms | Mezone | KK | panel | balcony_or_terrase | novostavba | |
|---|---|---|---|---|---|---|---|---|
| price | 1.0000000 | 0.7898035 | 0.5558636 | 0.1352582 | -0.0029982 | -0.2354115 | 0.1809857 | 0.0259425 |
| Meters | 0.7898035 | 1.0000000 | 0.7256933 | 0.1877708 | -0.0808172 | -0.1393384 | 0.2142180 | 0.0158588 |
| Rooms | 0.5558636 | 0.7256933 | 1.0000000 | 0.1295857 | -0.4544417 | 0.1124233 | 0.0656613 | -0.1401244 |
| Mezone | 0.1352582 | 0.1877708 | 0.1295857 | 1.0000000 | 0.0194664 | -0.0467605 | 0.0550130 | -0.0025503 |
| KK | -0.0029982 | -0.0808172 | -0.4544417 | 0.0194664 | 1.0000000 | -0.2646404 | 0.1849925 | 0.2407025 |
| panel | -0.2354115 | -0.1393384 | 0.1124233 | -0.0467605 | -0.2646404 | 1.0000000 | -0.3017103 | -0.2428932 |
| balcony_or_terrase | 0.1809857 | 0.2142180 | 0.0656613 | 0.0550130 | 0.1849925 | -0.3017103 | 1.0000000 | 0.2384205 |
| novostavba | 0.0259425 | 0.0158588 | -0.1401244 | -0.0025503 | 0.2407025 | -0.2428932 | 0.2384205 | 1.0000000 |
V rychlosti nahlédněme na rozmístění pražských nemovitostí.
Abychom částěčně vzali vpotaz prostorovu závislost (Krom. prostorových modelů), lze využít proměnné \(\textit{longitude, latitude}\) a zařadit je do regresního modelu.
Jelikož jsou obě proměnné ale nevhodně spojité využijeme Clusterovací algoritmus \(\textit{K-means}\), který přiřadí každé pozorování do určité kategorie, to modelu bude následně vstupovat \(\textit{dummy}\) hodnota tohoto clusteru, pokud bude vycházet statisticky významný, lze považovat prostorovou závislost ze velmi silnou a volíme modely prostorové metodologie.